Machine learning Interview 1823 Telegram Web

Machine learning Interview

📦 Новые возможности для ML

На конференции Data&ML2Business представили обновления Yandex Cloud AI Studio: теперь можно дообучать эмбеддинги, работать с PDF и таблицами, использовать рефразер для уточнения запросов и использовать модели через совместимый с OpenAI API.

Все эти возможности требуют надёжной инфраструктуры для хранения и обработки данных — и здесь в игру вступает YTsaurus. Это платформа для хранения и обработки эксабайтных данных, которую Яндекс изначально разрабатывал для внутренних задач. Теперь она доступна бизнесу как управляемый сервис в Yandex Cloud, с поддержкой как облачного, так и on-premise развертывания.

🛠 Что внутри:
• Распределённая файловая система + MapReduce
• Интеграция с Yandex Managed Spark
• Поддержка SQL-запросов, потоковой обработки и ML-задач
• Техническая поддержка развёртывания под enterprise

Также вышел редактор для кастомизации визуализаций в DataLens (на JS) и витрина готовых дашбордов - удобно для внутренних BI-решений.

🤖 Хабр

@machinelearning_interview

4.1K views08:51

Machine learning Interview

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 EPiC

Метод эффективного обучения управления камерой с использованием точного сопоставления видео и опорных точек.

▪ Github

4.3K views14:06

Machine learning Interview

Прокачай навыки общения с ИИ с мощной базой знаний от экспертов Anthropic — всё, что нужно для уверенного промпт-инжиниринга и уменьшения ошибок при работе с нейросетями.

🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО

⚡ Начни понимать ИИ не просто лучше — мастерски:

Github

4.0K views11:39

Machine learning Interview

Forwarded from Machinelearning

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

PlayDiffusion: инпейнт для речи.

Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.

Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.

PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.

В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.

После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.

Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:

🟢Во-первых, это некаузальное маскирование, позволяющее модели одновременно учитывать прошлые, настоящие и будущие токены, в отличие от стандартных GPT-подобных моделей.

🟢Во-вторых, используется кастомный BPE-токенизатор всего на 10 000 текстовых токенов, что резко сокращает размер таблицы эмбеддингов и ускоряет вычисления.

🟢В-третьих, модель учитывает характеристики диктора с помощью предобученной эмбеддинг-модели, которая преобразует аудиозаписи переменной длины в векторы фиксированного размера.

Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.

Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Модель

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3.4K views12:55

Machine learning Interview

🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"

3.7K views14:02

Machine learning Interview

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Видение идеального ИИ от Сэма Альтмана (OpenAI):

> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."

Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.

🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?

📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.

Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.

@machinelearning_interview - мл карьера

8.9K views09:01

Machine learning Interview

Forwarded from Machinelearning

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡

Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

🟡

Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

🟡

GitHub: https://github.com/QwenLM/Qwen3-Embedding

🟡

Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views15:46

Machine learning Interview

Forwarded from Machinelearning

🌟

Google опенсорснул стек Deep Search.

Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.

Проект включает в себя все необходимое: и фронтенд, и бэкенд.

🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.)

🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные.

Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.

Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.

Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.

⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.

📌Лицензирование: Apache 2.0 License.

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DeepSearch #Google #Gemini #LangGraph

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views08:46

Machine learning Interview

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!

Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.

✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций

💡 Бонус для разработчиков:

Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!

🔥 Работает с Google Colab — бесплатно, быстро, удобно.

#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning

✔️

Подробнее

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

9.4K views07:13

Machine learning Interview

🧠 ShapeLLM-Omni — первая LLM, которая понимает форму, текст и 3D

ShapeLLM-Omni — это мультимодальная модель от JAMESYJL, способная обрабатывать не только текст и изображения, но и 3D-объекты, точки, сетки, CAD, и даже тактильные карты. Она объединяет визуальное, пространственное и языковое представление.

🚀 Что умеет:

• 🔤 Понимает текстовые запросы
• 📦 Анализирует 3D-модели, включая point clouds и mesh
• ✋ Поддерживает тактильные данные (touch maps)
• 🧰 Универсальный encoder для всех типов данных
• 🤖 Основана на сильной Vision+LLM архитектуре
• 🧩 Поддерживает задачи: классификация, QA, описание 3D-сцен

🧪 Пример использования:
Модель может ответить на вопрос:
"Какой это инструмент?" — анализируя 3D-модель объекта.

📦 Форматы входа:
• Point cloud
• Mesh (.obj)
• Voxel
• Text prompt
• Touch (tactile image)

🔬 Для чего подходит:

• Робототехника
• AR/VR
• 3D-дизайн и CAD
• Мультимодальные агенты
• Образование и техподдержка по 3D-объектам

🔗 GitHub: github.com/JAMESYJL/ShapeLLM-Omni

💡 ShapeLLM-Omni — это новый шаг к универсальным LLM, которые понимают форму, а не только текст и пиксели.

@machinelearning_interview

3.3K views09:03

Machine learning Interview

🧠

Одна из лучших вещей, которую можно прочитать, чтобы понять PPO (Proximal Policy Optimization)

Как правильно реализовать PPO? 37 деталей, которые почти никто не указывает

Полезное чтиво Исследователи из ICLR собрали 37 практических нюансов, без которых реализация Proximal Policy Optimization (PPO) часто оказывается нестабильной или неэффективной.

🔧 В статье разобраны:
• 13 базовых деталей — без них PPO просто не будет работать стабильно
• 9 дополнительных при работе с изображениями (например, Atari)
• 9 нюансов для задач с непрерывным действием (робототехника и физика)
• 6 универсальных оптимизаций, улучшающих сходимость и результат

💡 Примеры включают:
– обработку rewards перед обучением
– правильное использование GAE
– нормализацию входных данных
– трюки с масштабированием advantages
– обработку градиентов и dropout

📌 Почему это важно:
Эти детали влияют на производительность и стабильность PPO, но почти всегда остаются "между строк" в статьях и туториалах. Без них модель может "учиться", но не достигать ожидаемых результатов.

🔗 Оригинальный разбор + код: https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/

#ReinforcementLearning #PPO #RL #DeepLearning #ICLR

Please open Telegram to view this post

VIEW IN TELEGRAM

2.8K views08:00

Machine learning Interview

Forwarded from Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views09:20

Machine learning Interview

🚀 Ultimate Development Partner for Claude: Gemini MCP Server

🌟 Что это?
Это сервер Model Context Protocol (MCP), который соединяет Claude с Google Gemini 2.5 Pro, предоставляя:
▪ 1M токенов контекста — анализ целых репозиториев, сотен файлов.
▪ Глубокую экспертизу — проверка кода, архитектуры, поиск багов.
▪ Динамическую коллаборацию — Gemini запрашивает у Claude доп. контекст.

💡 Зачем это разработчикам?
Claude умён, но иногда нужен «старший разработчик» для:

Валидации идей (chat) → Второе мнение по архитектуре, технологиям.

Ревью кода (codereview) → Поиск уязвимостей, оптимизация.

Предкоммитной проверки (precommit) → Поиск edge-кейсов, соответствие ТЗ.

Сложного дебага (debug) → Анализ логов, root cause.

Глубокого анализа (analyze) → Исследование больших проектов

🚀 Преимущества
▪ Обход лимитов MCP — автоматическая обработка больших промптов как файлов.
▪ Умная работа с файлами — фильтрация, управление токенами.
▪ Интеграция с Docker — 5 минут на запуск.

🔗 Репозиторий: github.com/BeehiveInnovations/gemini-mcp-server

2.6K views12:00

Machine learning Interview

🎙️ TensorFlowTTS — открытая библиотека для синтеза речи на TensorFlow 2, объединяющая современные архитектуры вроде Tacotron-2, FastSpeech2 и MelGAN. Проект позволяет не только экспериментировать с нейросетевым синтезом, но и развернуть готовое решение на мобильных устройствах благодаря поддержке TFLite.

Проект имеет унифицированный интерфейсе для разных моделей, что упрощает сравнение и комбинирование архитектур. Библиотека уже поддерживает несколько языков (английский, китайский, корейский, французский, немецкий) и предлагает инструменты для адаптации под новые языки.

🤖 GitHub

@machinelearning_interview

2.5K views11:04

Machine learning Interview

📚 9 AI-гайдов от OpenAI, Google и Anthropic

🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!

1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf

4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf

5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents

6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion

8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering

Лучшие практики от лидеров индустрии.

7.9K views07:04

Machine learning Interview

🤖 Почему модели лучше отвечают на вопросы по тексту, чем по изображениям — и как это исправить?

Vision-Language модели (VLMs) сильно хуже справляются с вопросами про картинки (*«Сколько книг на изображении?»*), чем с теми же вопросами по тексту (*«Сколько книг в описании?»*). И нашли способ улучшить результат на +4.6%, закрыв треть разрыва между модальностями! Вот что они сделали 👇

🔬 Они разделили вход на три части:
• Данные (изображение или текст),
• Вопрос (*how many…*),
• Ответ (предсказание последнего слова).

🧠 Что нашли:

1️⃣ Мозги у модели разные для текста и картинок — цепочки внимания и нейроны почти не совпадают (всего ~18%). Особенно в частях, где обрабатываются данные и вопрос.

2️⃣ Часть, отвечающая за генерацию ответа, похожа — можно даже подменить её между модальностями, и модель почти не теряет в точности.

3️⃣ Часть, которая "смотрит" на данные — строго модальная. Визуальный поток информации идёт по другому пути, и замена разрушает результат.

4️⃣ Проблема в том, что изображение “становится понятным” слишком поздно. В поздних слоях визуальные данные уже похожи на текстовые — но модель не успевает этим воспользоваться.

💡 Решение: "перемотать" визуальные данные из поздних слоёв обратно в ранние (back-patching) — это помогает модели раньше "понять" картинку.

📈 Результат: +4.6% точности при ответах на вопросы по изображению — и треть разрыва с текстом закрыта!

🧩 Вывод: архитектура не виновата. Просто визуальные данные нужно правильно "подать" — и VLM начинает думать почти как человек.

🔜

Читать статью полностью

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K views12:38

2025/06/18 10:30:31
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>